AI产业链地图·知识库 FP4 FP8 · 概念

🚧 网站建设中更新 2026·06·17 登录 / 注册 → 产业链图谱

首页/概念/FP4 FP8

更新 2026·06·17

概念技术 / 术语

FP4 FP8

FP4 · FP8 · 低精度浮点 · 4 位浮点 · 8 位浮点

传统深度学习训练用 FP32（32 位浮点），后来逐步演进到 FP16 / BF16 → FP8 → FP4。位数越低，每秒能算的乘加越多（同样硅面积下），但单次计算精度也越低。

FP4 FP8 CONCEPT · 概念

首次提出: 2022
关键参与方: NVIDIA, AMD
反向引用: 4 处 · 来自 2 页

归属低精度计算AI芯片第二层

FP4 / FP8（低精度浮点）

4 位 / 8 位低精度浮点数据类型。以损失少量精度换取数倍算力和能效，是当代 AI 芯片"账面算力"暴涨的关键。NVIDIA Blackwell 引入 FP4 把账面算力较 H100 提升 25 倍。

是什么

传统深度学习训练用 FP32（32 位浮点），后来逐步演进到 FP16 / BF16 → FP8 → FP4。位数越低，每秒能算的乘加越多（同样硅面积下），但单次计算精度也越低。

FP8 — 8 位浮点，训练和推理都广泛适用
FP4 — 4 位浮点，主要用于推理；少数训练场景也开始尝试

为什么关键

Blackwell 把账面算力做高的关键 — B200 FP4 算力达 20 PFLOPS，是 H100 的 25 倍（据2-01）
推理场景对精度要求低 — 大模型 token 生成场景下，FP4/FP8 与 FP16 的输出质量差距小到可接受，但算力账面成倍提升
从"峰值算力优先"转向"吞吐量/能效比/延迟优先" — 推理需求 2026 年起超越训练，低精度成为芯片设计核心维度（据2-01）
NVIDIA / AMD / 国产芯片都在追赶 FP8 推理算力 — 是衡量当代 AI 芯片代际差距的关键指标
结合 HBM 与 NVLink — 低精度让单卡能装更大模型 + 跑得更快，配合大带宽内存与高速互联，决定大模型推理 TCO

演进路线

精度	位数	典型场景	量产
FP32	32	早期训练	2010s
FP16 / BF16	16	训练 + 推理	2018 起
FP8	8	训练 + 推理（Blackwell 等）	2022 起
FP4	4	推理为主，少数训练	2024 起（Blackwell）

关键玩家

NVIDIA — Blackwell 引入硬件 FP4，第二代 Transformer Engine
AMD — MI300X / MI350 / MI450 跟进 FP8/FP4
云厂商 ASIC — Google TPU、AWS Trainium、Microsoft Maia 都在追 FP8/FP4 算力

关联

∈ belongs_to::2-01-核心逻辑芯片
与 Blackwell 强绑定 — 是该架构标志性能力之一

关键来源

2-01-核心逻辑芯片

反向引用链接到本页

反向引用 4

按引用量 ↓

… **中国格局（2024）**：[[华为昇腾]] 23%（国产第一），[[NVIDIA]] 仍占约 50%（含合规渠道）。 ## 技术竞争维度 1. **算力密度（FLOPS/Watt）** — FP32 → FP16/BF16 → FP8/[[FP4]] 低精度持续提升 2. **内存带宽与容量** — [[HBM]]3E 已成标配，[[AMD]] MI300X 192GB / 5.3 TB/s 对 [[NVIDIA]] 形成差异化 …

… （2024）**：[[华为昇腾]] 23%（国产第一），[[NVIDIA]] 仍占约 50%（含合规渠道）。 ## 技术竞争维度 1. **算力密度（FLOPS/Watt）** — FP32 → FP16/BF16 → [[FP8]]/FP4 低精度持续提升 2. **内存带宽与容量** — [[HBM]]3E 已成标配，[[AMD]] MI300X 192GB / 5.3 TB/s 对 [[NVIDIA]] 形成差异化 …

查看原文 →

… - **FP4 算力 20 PFLOPS** — 是 H100 的 **25 倍**（[据2-01](../来源摘要/2-01-核心逻辑芯片.md.md)）。通过引入 FP4 FP8 低精度数据类型把账面算力直接拔高一个量级 - **系统级竞争的代表作** — GB200 NVL72 不再是"卖一张卡"，而是"卖一柜算力"，把芯片+互联+内存+散热+软件打包销售 …

… 5.0** — 单链路带宽显著高于上代，是 NVL72 把 72 卡变"一台机器"的底座 - **[[HBM]]3E** — 大容量高带宽内存，缓解大模型"内存墙"瓶颈 - **第二代 Transformer Engine** — 硬件级 FP4 FP8 支持 ## 演进 / 下一代 - 上一代：Hopper（H100 / H200） - 当代：**Blackwell（B200 / GB200）** - 下一代：[[Rubin]] — [[NVIDIA]] 已规划的下一代架构 …

查看原文 →